【Friday BI Fly】金融行业如何构建新一代大数据中心
周五BI飞起来,天善商业智能BI社区每周五下午举办问答社区在线答疑活动,每周五晚上举办行业、厂商工具、技术相关的微信在线直播活动。
详情请关注天善问答社区活动页面
金融行业
如何构建新一代大数据中心
主持人:加入本群的同学们,感谢大家参加由天善智能举办的 Friday BI Fly 活动,每周五微信直播,每周一个话题敬请关注。
【群规】本群为BI 行业、技术、工具交流和学习群。不准发广告,只能发红包,发广告者一律移除微信群。
本次微信直播讨论内容
1、金融行业如何构建新一代大数据中心
本期嘉宾介绍
永洪科技 胡星昱
澳大利亚莫纳什大学商业信息系统硕士,拥有3年大型企业需求分析,项目实施和解决方案制作经验;曾为国外大型零售企业和政府机构设计和实现数据分析系统,成功推进国内多个大型金融项目的需求、设计、研发、实施工作。在企业级系统集成,大数据,BI领域有丰富的项目经验;目前主要负责产品和解决方案的咨询工作。
永洪科技专栏 大数据小数据,一天实现可视化分析
永洪敏捷BI精品培训教程 视频专栏
永洪科技2015年度用户大会 视频专栏
主持人:大家好,我是微信直播活动的主持人咖啡,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴。我们的口号是“Friday BI Fly 周五BI飞起来”。
近几年大数据炒的火热,企业都在跃跃欲试,但凡有点财力的公司都会想上大数据平台,何况是银行呢,今天呢,我们嘉宾给大家分享的主题就是金融行业如何构建新一代大数据运营中心?下面我们有请永洪科技高级咨询师胡星昱 来给大家带来下面的分享。
永洪科技 胡星昱
大家晚上好,我是永洪科技胡星昱,很高兴在微信上与给大家做分享。想必,在电脑的另外一端,有很多金融行业的朋友们,感谢你们的参与。
接下来,我会聊一下对大数据在金融行业应用的几点看法,这次给大家带来的是《新一代金融机构大数据运营中心的解决方案》。在方案里会包含我们金融行业大数据运营中心面临的一些挑战,以及我们的整体解决方案和技术架构,以及方案的优势和案例。
说到大数据,有两点我们要强调一下:一个是数据资产化,另一个是决策数据化。
部门是做IT支撑的,每年我们都会有大量的软硬件采购,在企业内部里都会认为信息技术部门是成本中心。IT部门的数据也都是根据业务发生时所产生的一个附属物。
随着大数据技术的发展,我们会希望通过这些数据,寻找业务的规律,对客户的需求进行挖掘。这样做的目的是给业务带来直接的价值,帮助业务进行优化和提升,所以数据也成为了金融机构的一个非常宝贵的资产,掌握最多数据的IT部门也逐渐的变成了利润中心。
从战略的方向来讲,以前我们主要是通过决策人员经过经验主观判断进行决策支持,这样做的风险很大,因为人都会受到自己的环境以及情绪的影响。所以我们就必须通过这些数据来帮助我们做决策,进行客观的验证和预测。我们要从原来依据经验说话,向依据数据说话进行转变。
在大数据量和数据分析的需求的挑战下,从战略层面上讲,我们金融机构需要建立一套“数据驱动型”的模式,就是真正地落实我们的大数据运营中心。
从战术方面上讲,我们可以有三个方向,首先可以通过用户画像,精准营销来做这种运营的优化,其次是通过运营分析,通过产品定价来做精细化的管理,以及利用实时反欺诈反洗钱的应用,和中小企业的贷款评估来提高我们风险控制的能力,最后是全面提金融企业的核心价值和能力。
金融行业现在都需要一个整体业务架构,首先业务架构要从搭建一套企业级的数据中心说起,企业级的数据中心会包含我们的业务系统、外部数据和一些机器日志,这些结构化、半结构化和非结构化的数据,我们都要把它汇集在一起。
在这些数据之上,我们可以建立各种各样的分析模型,比如说利用用户画像,来做精准营销,用EVA指标模型,反欺诈模型来做多维盈利分析、反欺诈的交易分析等。
刚才提到运营优化,管理提升,风险监控,这三个方向到底给我们金融行业带来什么价值?我给大家简单介绍一下。
首先是精准营销。精准营销我们聊了很多了,真正要做得就是了解我们的用户:客户到底是什么样的,客户是谁,客户需要一些什么样的产品,客户有什么样的产品的偏好,可以做那些产品的组合等。
还有就是如何进行有效的营销,如何提升我们客户价值,保持客户的忠诚度。
比如说现在很多金融机构会有自己的金融的APP,那我们可以分析用户在寻找什么样的产品,他们在找到一款产品到真正实现交易的过程中都会浏览哪些页面,那个页面停留多长时间,如果交易中断掉了,是什么原因造成的,是不是我们页面设计的不合理,还是用户体验不好,这些都可以来提高我们运营的效果。
说到精准营销就不能不谈用户画像,以前经常提到大家说的360度用户画像。
我个人觉得,360度用户画像更多的像一个广告宣传语,因为人是一个非常复杂的动物,你很难用可数的纬度来100%地描述出它,所以我们就一定要有目的出发来建立用户画像。
尤其是在我们企业内部没有足够的数据来构建用户画像,需要通过外界渠道来获取的时候,这些数据获取都是有成本的,因此更不应该盲目的搭建自己的用户画像体系。
也就说用户画像的本质它其实应该是从业务角度出发的,对用户的需求,消费能力,以及客户的信用额度等等进行分析。
举一个小例子,比如说我们在做存贷款产品营销的时候,可以对高价值的信用卡用户,它的AUM进行分析。
我们可以筛选他的每个月的消费金额,它的信用的额度是多少,然后当前会有哪些存款,贷款的产品,有没有拖欠,是不是商务卡的持有者。
通过这些维度,我们对用户进行分析,对于不同的用户分群我们会给出不同的营销策略,比如说哪些用户我们该提升他的额度,那些应该给他推荐金融产品。
营销在落实的时候,我们可以先通过短信进行营销,之后呢再通过呼叫中心来了解客户的意图,当客户真的有意向的时候,我把它再交由理财经理进行进一步的跟进。
除了精准营销,我们还有多维盈利分析。
多维盈利分析我们金融机构已经做了很多年了,我最近也与国内几十家金融机构进行了交流,发现其实在业务这边他们都是希望自己多维盈利分析能够做到帐户级。
可是实际上,大部分金融机构现有的IT架构只能支撑他们做到像产品级,或者是科目级这样的分析,为什么呢?就是因为我们对数据的处理能力是不够的。我们如过要跑一个帐户级的结果出来,系统跑批要跑好几个小时,有时候这个时间会长到无法接受。
通过数据运营中心,我们可以实现几十分钟,就把你账户级的结果跑出来了,那企业就可以更好得来进行精细化管理。
还有像风险控制。在风险监控这方面,我们还会列出很多风险监控的指标,通过这些指标,我们用大数据平台可以进行实时监控来真正的了解到整个企业当前所处的风险等级。
像刚才说的这些应用,我们用传统的架构能不能实现呢?它存在这样的六个缺点。
传统的架构的缺点:
第一就是,它不够敏捷,它对业务的这些新需求满足的时间都太长了。我通过交流了解到,有些金融机构内部业务新的需求提出来,可能需要几周,甚至几个月的时间才能把这报表提交回去,业务人员才能看到他需要的数据,过程显然是不能够跟上现在市场的变化。
第二,传统的架构的性能不够,在海量数据面前,并没有能够足够的计算能力去实时的,或在我们能容忍的时间内计算我们需要的数据。
第三就是洞察力,传统的IT架构已经无法深入去挖掘海量数据的数据价值。金融企业的分析人员已经不满足于只是看到数据的呈现,还希望对数据进行,聚类、分类,然后类似这样的算法来帮助他们挖掘数据里的价值。
第四就是扩展性差,海量的历史数据,单机无法存储,传统的IT架构又不支持水平扩展。
第五,就是非结构化数据,现在每年金融机构的数据增量中可能有百分之70、80的数据都是来自于一些非结构化的数据,如果不能把这部分的数据价值挖掘出来,是对数据价值的一个严重的浪费。
第六,最后一点,就是成本高,从系统搭建到项目实施过程的不可控。这点,在座的金融行业的朋友们应该感受更多,动辄上百万,实施有时候需要一两年的项目在金融机构中是很多的。
所以我们提出了新一代的金融大数据应用中心的一种IT架构,那一看到我们图片左侧会有各类数据源,根据我们业务需求的不同,会把它分为在线需求和离线的需求。
有人可能会问了,为什么你这边要分在线和离线的品牌呢?
其实我们的很多需求都是有时效性的区分的。有些需求,我们是要在显示器前面实时的看到结果,有些分析需求我们是允许他在后台经过一段时间的跑批处理来得到的。
举一个小例子,比如说我们在分析现有的客户,哪些是属于即将流失的客户,哪些是我们高价值的客户。在这个过程中呢,可能我们都要经过复杂的模型,然后考量多个指标来进行判断,这个结果我们并不需要马上就得到它。但是我们在分析某个地区的时候,我们的高价值客户最近他的消费倾向的客户是在哪部分,用来旅游,还是用来买车或者是投资。那这种分析需求我们都是非常灵活的,时刻会变化的,这种需求我们是要跟它能够实时的得到计算结果,然后根据我们需求的变化,调整分析的维度组合。
下面,我把在线和离线的分开介绍一下。
在做这种在线分析需求的时候,我们也总结出了一个最佳的实践。这里顺便回答下刚才那个如何实现敏捷分析的问题。
在以前的架构中,我们通常都是把业务逻辑和数据模型结合在一起的,也就是说我们业务需求提出后,会根据业务需求来制作数据模型,制作CUBE,做二次表,进行汇总计算,最后反馈和展现的只是一个很小数据量的结果。在那这样一个架构中,我们前端需求一旦变化。我们还需要去改模型,工作量很大,交付时间也会拖长。
所以我们现在所提倡的就是把数据模型,和业务逻辑分开。在数据模型这边,我们应该只是把跟分析主题相关的数据关联到一起,就是我们常说的做一张大宽表,比如说我们现在要进行营销相关的分析,这时候我们要把数据交易数据,用户数据,渠道数据都打通,把它们关联起来,但是这些数据我们不要汇总,也就是保持交易记录级的数据粒度,我们现在要分析哪些纬度,需要什么粒度的数据,都通过实时的计算,这样就不会说造成我们业务逻辑和数据模型混在一起。
比如你想按照区域还是产品,按照用户年龄还是交易渠道,分析每个月的交易量还是每周的交易额,这些都是灵活组合的,我们不能每个分析需求都建一个CUBE,因为之前确实是见过,有的企业数据仓库中有上千个cube的,一个新的报表需求出来的时候,可能他以前几千个CUBE里面,总有一两款是他能拿来做分析需求的,但是因为数量太大,根本就没有人来进行管理。在这样的一个状况下,每当有新的需求提出来,我们只能一个接一个的做新CUBE。这样对我们企业,长期来说是有很大的风险。
我们的数据如果说不愿意提前来进行汇总计算,我们实时进行计算的话,就必须要提供大量细节数据实时计算的能力,这时候我们就采用了MPP数据集市,来处理这种在线的分析需求。
在这里面,我们运用了列存储,分布式计算,列存计算的技术来提高运行效率,就算是百亿级的数据,我们也可以通过这种分布式的机群,然后实时的来进行分析计算,然后来反馈给用户。
此外,还有大数据平台一个离线分析这边,通过Hadoop的平台来做结构化非结构化数据的存储,解析。
然后在上面我们会用YARN量来做资源的管理,根据你的分析需求,来决定是用批处理模块,还是搜索的模块,还有流处理和机器学习等等。
永洪科技现在也是帮助国内各个企业来进行数据挖掘应用。我们的客户范围涉及电信行业,能源,政府,金融,零售,还有IT互联网这些行业,都与永洪合作过,然后来提升他们数据运营效果。
接下来,简单介绍几个我们做过的案例,首先,我是一个股份银行,我们通过大数据的平台,帮助他们进行了用户画像的精准营销,这里我们把金融机构持卡人的信息,包括他的信用卡信息,还有微信卡信息都拿过来。
在大数据平台上,通过我们的画像和算法给用户进行画像分群,主要是我们根据分析需求来构建画像的模型,基于Map Raduce聚类和算法对用户进行分类,然后再进行数据域处理,最终完成用户的画像。
这边有一些我们用到的指标体系,你可以看到有一些是我们行内自己有的数据,有些可能要借助第三方才能够获得。
另外,我们还有帮助华北一些金融机构,帮助它在传统的数仓之上搭建了一个在线分析平台,然后来帮助他建立全行的报表平台。例如行长驾驶舱,还有业务类型的报表。
我们也在中信金融机构杭州分行,四川分行都搭建了我们在线分析平台,杭州分行我们通过在线平台要帮助用户实时的来分析他们的零售数据,以前可能他们分析人员大部分的精力都是用在整理数据,制作报表的过程中。
那通过我们在线平台呢,这些业务人员可以自己来接触到数据,并且可以快速的生成他们的分析报告,把真正精力都放在分析数据这块。
现在,我们其实正好是处在了数据架构以及数据分析系统的一个变革时期,永洪科技也是非常希望通过我们专业的技术和服务来帮助金融机构真正的把数据价值挖掘出来,来提高我们业务,来提高我们的竞争力。
因为时间关系那今天的方案分享就到这里,谢谢大家耐心观看,对刚刚讲的内容有问题可以交流一下。
主持人:胡总今天分享的内容信息量太大了,没跟上的朋友回头一定要看看文字版理解理解。大家有的可能还有疑问,永洪的产品到底是怎么解决上面那些问题的,大家有需要也可以去体验一下永洪的产品,看看是不是如胡总所说。下面就进入我们的自由讨论环节,如果大家还有什么不明白的,或者在工作中遇到的其他问题,只要是跟今天的主题有关的,大家都可以提出来。
问题1:银行业构建用户画像,就单纯行内数据来讲受的局限性还是很大的,一个人存款余额只有3500,年龄30,我们不能说他没有钱,这一点电商就很有优势,他们有消费数据,在银行如何获得外部数据?如何对数据进行密级控制?外部数据与内部数据如何关联?有请老师指点
胡星昱:外部数据这点,永洪现在有一些合作伙伴在同第三方数据,包括个人数据,企业数据,征信数据等等,这个我们可以下来再仔细交流下,不过永洪科技暂时是不提供数据服务的。
问题2:关于敏捷,刚才老师讲的方案就是用宽表,尽可能把分析维度都包含进来?是这样?
胡星昱:现实关于敏捷,刚刚提到了宽表,这个宽表是基于我们的分析主题的。就像刚刚说的营销主题,我们先要梳理下都有哪些数据是维度可能是需要分析的。通过数据集市把宽表保存下来,之后敏捷分析都是在基于宽表进行组合,永洪现在提供可视化的工具,在宽表的数据模型上,只要简单的拖拽就可以组合自己要分析维度和度量指标。有机会可以体验一下。
十字架:嗯嗯。分析维度的变化是一种情况,如果接入的数据源,或者度量的计算公式发生变化,有什么好的快速响应办法么?这也是比较常见的情况
胡星昱:度量的计算公式变化是需要修改宽表里的指标的,这里我们可能就要修改宽表了,接入的数据源如果变化也是同理,操作上一般是在宽表上增加一个字段。
问题3:用户画像的准确度如何?你们如何评估画像模型的优劣?
胡星昱:计算平台只是我们的工具,当然不能完全依赖机器来做。所以我们也有专门的数据科学家来帮助企业完善用户画像的模型,挖掘算法做出来的结果是是需要通过在线分析平台来验证的。
欢乐多:因为感觉金融很强调指标的可解释性和结果的可靠性。对于聚类出来的标签,该如何解释和评估可靠性呢
问题4:最后的那张片子里,说的用户画像,中间那部分基于大数据客户画像算法,个人觉得只要有了前边结构化的原数据完全可以用SQL出画像的宽表啊?那些算法能再具体讲解下么?谢谢。
胡星昱:@春天在心里 这个问题展看讲就内容太多了哈,正好也有别人提到用户画像~我简单提两点吧。其实我们是通过挖掘算法来实现,通过聚类的方法来完善我们的用户标签,这里用到的也是结构化数据为主,不过通过人工来定义的标签往往不准确,通过聚类分类的算法可以更客观的来给用户打标签,不过这个过程不是一蹴而就的,也是需要对模型进行反复的调整的。
问题5:胡老师,一堆报表和能辅助企业决策的有价值的分析之间的根本差别在哪儿,现在很多的BI做出来就是一堆报表
胡星昱:简单回答下刚才有个报表和BI的问题,因为之前很多企业的报表确实做出来没人看,利用率很低。其中一部分原因就是做出来的报表和业务分析的需求往往不是很匹配的,这也是为什么要有在线分析平台,交给业务部门自己来接触到数据,来分析,比一堆报表的效果要好很多,业务问题都可以马上在在线分析平台上进行验证。
主持人:在结束我们今天的活动之前,给大家送个福利,16年最值得学习的《21天零基础精通Qlikview》精品课程已上线,全国首发,是目前为止最精炼、覆盖知识面最广的Qlikview课程,而且五一优惠促销中,节后恢复原价,想学习的个人或企业单位赶紧联系我们。课程详情:
好了,再次感谢胡总的精彩分享以及耐心细致的回答,我们今天的微信直播活动到这里就要结束了,大家记得还有疑问的提问到社区,那里常驻有各个行业及技术领域的大咖。
预告下期分享主题:2016年05月06日晚8点半微信直播Python零基础入门实战、如何使用Python自动从网络下载资源等交流会第15场
今天的微信直播活动到这里就结束了,喜欢天善智能的朋友们请继续关注我们,每周五晚8:30,我们不见不散哦!
每周 Friday BI Fly 微信直播参加方式,加个人微信:liangyonghellobi ,并发送微信:行业+姓名,即可参加天善智能微信直播活动。
相关阅读:
【Friday BI Fly】零基础入门数据分析、数据分析师的成长路径微信直播记录
【Friday BI Fly】数据治理实战应用、企业级模型规划和管理、元数据管理微信直播记录
【Friday BI Fly】51随意行吴君畅聊大数据如何在旅游行业中创新以及互联网+对传统旅游业带来的变化
【Friday BI Fly】2015年12月04日大数据分析背景、Hadoop架构及日志系统在Hadoop的应用与实现微信直播文字版记录
【Friday BI Fly】同程旅游大数据架构师和途牛数据分析师分享 — 旅游行业如何做精准推荐、大数据技术在旅游行业如何应用?
【Friday BI Fly】2015年11月27日零售行业大数据落地、BI工具选型、RFM分析微信直播记录
【Friday BI Fly】2015年11月20日数据挖掘、用户画像微信直播图文全记录
【Friday BI Fly】11月13日报表平台运营模式及架构微信直播全记录
【Friday BI Fly】11月6日零售行业&BIEE技术微信直播文字版记录
【Friday BI Fly】10月30日零售行业&BIEE技术微信直播文字版记录
天善智能是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术的垂直社区平台,旗下包括问答社区、在线学院和招聘平台三个网站。
问答社区和在线学院是国内最大的商业智能BI 和大数据领域的技术社区和在线学习平台,技术版块与在线课程已经覆盖 商业智能、数据分析、数据挖掘、大数据、数据仓库、Microsoft BI、Oracle BIEE、IBM Cognos、SAP BO、Kettle、Informatica、DataStage、Halo BI、QlikView、Tableau、Hadoop 等国外主流产品和技术。
天善智能积极地推动国产商业智能 BI 和大数据产品与技术在国内的普及与发展,合作成员包括:帆软软件、Smartbi、永洪科技、ETHINKBI、TASKCTL、奥威 Power-BI、上海海启路科技、上海亦策等。